Vizualizace dat vždy hrála a neustále hraje významnou roli ve vědě. Je to jednoduchý a jeden z nejlepších způsobů pochopení dat. Poskytuje jasnou představu o konfiguraci dat, odhaluje skryte struktury v datech a shrnuje informace. Proces vizualizaci je nedílnou součásti mnoha lékařských analýz a téměř všechny přírodní vědy využívají grafického zobrazení dat k vizualizaci a komunikaci svých výsledků. Dlouhou tradici prezentace dat se vyznačuje i ekonomika. Sbírané a analyzované po dobu mnoha let data se v současné době převádějí do grafické formy. Masivní příliv dat a jejich dostupnost vedli k novým metodám a novým přístupům. Kombinace programovacích dovedností, matematických a statistických znalostí a odborných znalostí týkajících se obsahu přijala název “Data Science”. Objevily se pozice takzvaných “information designers”, které vyvíjí vlastní softwary pro vizualizaci dat, zakládají poradenské firmy, pořádají globální workshopy nebo vytvářejí blogy s tisíci registrovanými uživateli. [@datavis_rahlf] Přes všechny výhody vizualizace, jedná se pouze o nástroj datové analýzy, obecně dostupný každému. Nesprávné či nevhodné použití tohoto nástrojů vede k tomu, že existují grafy, které se považují za moc barevné a rušivý, postrádající smysl až zavádějící. Z tohoto důvodů se obracíme na takzvané zásady vizualizace. (?)
\(\dots\) popsat zásady vizualizace, její zařazení do datové analýzy, moderní způsoby vizualizace (používané baličky v R, interaktivní grafy). Aplikace.
Před 17. stoletím jediné co by se dalo klasifikovat jako vizualizaci dat byly mapy pro navigaci a průzkum, ale také diagramy, geometrická schémata a tabulky pozic hvězd a jiných nebeských těles. Postupný vývoj statistické teorie a růst zájmu o data na konci 18. století vedly k inovacím a expanzi nových grafických forem. Kartografové se pokoušeli zaznamenat vice, než pouhou geografickou polohu na mapě a objevili se první pokusy o tematické mapování geologických, ekonomických a medicínských dat.
Wiliam Playfair (1759-1823) je obecně znám jako průkopník v oblasti vizualizace dat a je považován za vynálezce několika typů grafů. Například liniový a sloupcový grafy a grafy časových řád byly popsány v jeho práci z roku 1786 1. Později popsal i koláčový graf ve své práci v roce 1801. Obrázek ukazuje příklad jeho kreativní kombinace různých vizualizačních technik (kruhy, koláče, linie), pomocí které se snažil porovnat daňovou zátěž mezi Británii a dalšími zeměmi. Na tomto grafu také ukázal možnost použíti více měřítek pro různé ukazatele (v grafu populace a daně).
Kombinace různých vuzuálních techník, Playfair 1801
V polovině 19. století byly vytvořeny všechny podmínky pro rychlý růst vizualizace. V důsledku rostoucí významnosti číselných informací pro sociální plánovaní, industrializaci, obchod a dopravu, byli zřízeny oficiální statistické úřady po celé Evropě. Vývoj statistické teorie, iniciovaný Gaussem a Laplacem, měl odezvu ve společností a poskytl prostředky ke zpracování velkého množství dat. Pro vizualizaci se stalo dat období 1850-1900 “Zlatý věkem”, s jedinečnou krásou a velkým množstvím inovací. S těmito inovacemi je hlavně spojené jméno Charlese Josepha Minarda (1781-1870). Například, Minardem bylo zavedeno použití koláčových grafů s výsečemi na mapách (obrázek ), kde velikost koláčového grafu ukazuje sumu za oblast neboli každý grafický region na mapě a výseče reprezentují dílčí součty za jednotlivé kategorie. Dále se také zabýval znázorněním geografických pohybu a dopravy lidí, zboží, importu a exportu úměrně jejich velikostí. Tento typ vizualizace se nazývá
, viz obrázek . Jednou z nejslavnějších jeho práci je zobrazení postupných ztrát mužů francouzské armády během Napoleonského tažení na Moskvu v letech 1812-1813 (obrázek ). Je považovaná za nejlepší informativní vizualizací. I přestože v tomto grafu je celkem 6 proměnných (množství, lokace ve dvou rozměrech, postup armády, teplota, datum a skupiny), podařilo vše zobrazit tak, aniž by graf byl přeplněný a matoucí.
Začátek 20. století je občas nazýván “moderním temným věkem” vizualizace. V letech 1900-1950 bylo jen málo grafických inovací. Nadšení pro vizualizací, které charakterizovalo 19. století bylo nahrazeno formálními (z velké části statistickými) grafy a modely z oblasti sociologie. Hlavní zájem byl o přesná čísla, odhady parametrů, směrodatné odchylky. Vizualizace byli považované za pouhé hezké obrázky bez schopnosti podat přesná data. [@dataviz_history] Ve své práci z roku 1919 Willord C. Brinton [1880-1957] kritizoval a vysvětloval chyby takovýchto grafů. Například koláčový graf rozdělení rodinných příjmů (od 900$ do 1000$) na obrázku . Tento graf je příkladem nepovedené vizualizace: oko preferenčně soudí dle velikostí obrázků a ne dle uhlů výsečí. Obrázek uprostřed znázorňuje druhy utracení: je to zábavný způsob vizualizace, avšak nelze přesně určit velikost brašen, ani je porovnat mezi sebou. Další obrázek by měl čtenáři sdělit informaci, že prodej praček za poslední tří roky vzrostl sedmkrát. Z obrázku není patrný poměr sedmi ku jedné ani přesné roky kdy bylo provedeno porovnání údajů. Dále Brinton ve své práci upozorňoval, že neúspěšná prezentace dat může vést k chybným závěrům a také zmiňoval potřebu jakéhosi standardu, souhrnu “gramatických pravidel pro grafický jazyk”. [@brinton_1919]
Ukázky vizualizaci ze začatku 20. století, Brinton 1919
Ke “znovuzrození” vizualizace došlo v polovině šedesátých let 20. století, po napsaní Johnem W. Tukey [1915-2000] článku , ve kterém vyzývá společnost k uznání analýzy dat jako samostatného oboru statistiky odlišného od matematické statistiky. [@tukey1962] Brzy poté začal Tukey s vývojem široké řady nových a efektivních grafů pod společným tématem “průzkumové analýzy dat” (popsány v jeho práci z roku 1977, viz o tématu kapitola 3). [@tukey1977] Mezi těmito novými grafy jsou například číslicový histogram (popsaný v kapitole 2.4.3), boxplot nebo krabicový graf (popsaný v kapitole 2.3.2) a další. Mnoho z nich je aktivně používáno ve statistické praxi a implementováno do většiny softwarů. [@dataviz_history]
Od roku 1975 se vyvíjí statistické výpočetní systémy a s nimi i nové metody analýzy a vizualizace dat. V tomto období vizualizace začala být vnímána jako vlastní odvětví a to především díky Williamu S. Clevelandu a Edwardu Tufte, kteří položili věděcké základy tohoto odvětví. Tufte vyvinul a popularizoval terminologii a základní principy grafické integrity. Cleveland se zabýval studii grafického vnímání, kognitivních procesů, které lidi používají k pochopení grafů, a rozvíjel teorii o správném provedení vizualizaci. [@cleveland_priceonomics] Důsledek jejich práce se promítá i do současné doby kvalitní, interaktivní a dynamickou vizualizaci. [@dataviz_history]
Za revoluční průlom se považuje kniha Edwarda Tufte The Visual Display of Quantitative Information z roku 1983, v kombinaci s dvěmi následně publikovanými pracemi Envisioning Information z roku 1990 a Visual Explanations z roku 1997, patří mezi nejznámější publikace na téma vizualizace dat. Právě v těcho pubikacích Tufte originálním způsobem definuje “standard” vizualizace. [@datavis_rahlf] Ideální způsob vizualizace dle Tufte je stručný, elegantní a informativní. Příkladem ideálního grafu je pro Tufte graf postupu Napoleonských vojsk v letech 1812-13, vytvořený Minardem (viz obrázek ). Tufte říká, že grafická elegance se často nachází v jednoduchosti návrhu a komplexnosti dat. [@tufte1990] Tafte formuluje základní principy vizualizace jako grafickou dokonalost a grafickou integritu.
Ve spojení s těmito principy byly zavedeny Edwardem Tuftem následující terminy:
Kromě práci Edwarda Tufte velký vliv měli i publikace Wiliama S. Clevelanda. Cleveland se svým kolegou Robertem McGillem publikovali v roce 1984 článek o grafickém vnímání. [@cleveland_mcgill] Prováděli studie na rozdíl ve vnímání sloupcových grafů (pozice a obecné měřítko), koláčových grafů (úhel), skládaných sloupcových grafů (plocha), barevných a stínovaných map (saturace barev a stínování) a další. [@cleveland_priceonomics] Ve svých pracích Visualizing data z roku 1993 a The Elements of Graphing Data z roku 1994 Cleveland se zabýval principy vizualizace, grafickými metody a techniky, vykreslením tři a více proměnných. Některé z jeho principů se schodují s principy vymezené Tuftem, avšak práce Clevelande v této oblasti předcházela práci Tufte. Zásady a principy dle Clevelande by se se dali shrnout do čtyř hlavních kategorií: jasný vzhled, jasná srozumitelnost, měřítka, obecná strategie. [@cleveland1994]
Následující příklad na obrázku je zobrazením množství izotopu xenonu \({}^{133}\mbox{Xe}\) ve vzduchu (\(pCi.m^{-3}\)) v Albany, New York koncem března a začátkem dubna roku 1979. Spodní část grafu ukazuje časově zprůměrované odhady úniků z reaktoru při havárie elektrárny Three Mile Island, na detailu jsou zobrazeny hodnoty vzorků vzduchu (měření plynů) a současné průměrné hodnoty pro okolní vzduch. Zkratka LT znamená less than (méně než). Všechno, včetně popisků os, klíčů a popisků bylo umístěno do oblasti grafu, není dodržená žádná ze zásad Clevelande. Výsledkem je matoucí graf, který je obtížné číst. Stejný graf na obrázku byl vytvořen Clevelandem s dodržením veškerých zásad: odstranění zbytečných objektů a detailu z oblasti grafu, rozlišné datasety se zobrazují ve vlastních panelech, oprava popisků, popisujících měření.
The Grammar of Graphics* publikovana Lelandem Wilkinsonem v roce 2005, detailně popisuje prvky, které tvořejí základ všech statistických grafů. Tato publikace popisuje statistickou grafiku jako mapovani [@wickham_ggplot] a měla extrémně velký vliv na myšlení o grafech. V tomto kontextu grammar znamená “pravidla pro umělectví a vědu”. Práce specifikuje pravidla jak matematicky tak i esteticky. Dříve se soustředilo na estetiku statického kontentu. Dinamicke grafy a vědecky založená vizualitace kontrastne požaduje sofistikovaný design pro umožnění přiblížení, propojování, kartačování. The Grammar of Gpraphics se jednoduše přizpůsobuje tomuto přisstupu.